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摘要 : 针对 卫星 有 效 载 荷 数 传 数据 传输 速度 快 、 实 时 处 理 难 等 特点 ， 提 出 一 种 面向 有 效 载荷 高 速 数据 流 的 
实时 数据 处 理 方法 。 该 方法 借鉴 MapReduce 的 多 线程 并 行 模式 , 采用 hash 算法 与 归并 排序 算法 相 结合 的 方 
式 ， 提 高 数据 处 理 吞 吐 率 ， 实 现实 时 处 理 ; 采用 基于 XTCE(XML Telemetry & Command Exchange) 数 据 模型 
的 参数 解析 算法 ， 实 现 通用 性 。 实 验 表 明 该 方法 能 够 满足 有 效 载荷 对 数据 处 理 的 实时 性 和 正确 性 的 要 求 。 
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Abstract: Aiming at the characteristics of high speed transmitting and difficult in real-time 
data processing for payload transmitted data, a method of data processing for high speed data 
stream of payload is presented. By drawing on multi-threaded parallel mode of MapReduce 
framework, hash algorithm and merge sort algorithm are combined to improve throughput rate of 
data processing and achieve real-time processing, a parameter parsing algorithm based on XTCE 
(XML Telemetry & Command Exchange) data model is employed to improve generality. Results 
of the experiments indicated the proposed method could meet data processing requirements of 
payload in real-time performance and validity. 
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0 引言 

随 着 我 国航 天 事业 的 快速 发 展 ， 空 间 
科学 任务 中 有 效 载 答 的 数 传 数据 量 越 来 越 
大 ， 数 据 类 型 更 加 复杂 ， 而 通信 设备 性 能 
的 日 渐 优 化 ， 使 得 数 传 数据 的 传输 码 率 大 
幅 提 升 。 针 对 有 效 载荷 高 速 数据 流 ， 即 使 
所 使 用 的 计算 机 处 理性 能 越 来 越 高 ， 采 用 
常规 的 逐 帧 参数 解析 方法 依然 不 能 满足 科 
学 任务 对 实时 性 和 正确 性 的 要 求 ， 因 此 ， 
研究 面向 有 效 载荷 高 速 数据 流 的 数据 处 理 
方法 ， 逐 渐 成 为 航天 数据 处 理 的 关键 性 课 


题 。 


目前 国内 外 学 者 针对 大 规模 数据 的 批 
量 计 算 相 关 技术 的 研究 相对 成 熟 上 1, 用 于 
处 理 计算 的 MapReduce 框架 得 到 广泛 
占用， 然而 现 有 的 Hadoop、Phoenix 等 大 
规模 数据 处 理 技术 ， 更 偏向 于 处 理 永久 性 
数据 ， 不 但 不 能 满足 大 数据 流 式 计算 在 实 
时 性 、 知 吐 率 方面 的 要 求证 ， 更 存在 与 已 
有 数据 处 理 模 块 无 法 兼容 的 问题 。 大 数据 
流 式 计算 的 研究 我 国 目 前 还 属于 起 步 状 
态 , 国外 虽然 已 开发 出 一 些 流 式 计 算 系 统 ， 
如 Twitter 的 Storm 系统 ，Yahoo 的 S4 系 
统 等 ， 但 更 适用 于 数据 挖掘 ， 对 数据 处 理 


< 二 


针对 有 效 载荷 数据 的 处 理 ， 重 点 在 于 
同步 码 识 别 、 数 据 分 包 、 拼 接 、 参 数 数据 
提取 、 参 数 物 理 量 转换 、 数 据 定 标 、 修正、 
反 演 等 一 系列 正确 性 要 求 较 高 的 操作 ， 这 
与 目前 已 有 的 流 式 计算 系统 的 应 用 有 较 大 
差别 。 此 外 ， 多 型 号 多 任务 是 未 来 航天 事 
业 的 发 展 方向 ， 数 据 处 理 方法 需要 能 够 具 
有 良好 的 通用 性 ， 以 适应 多 异 构 任务 ， 并 
有 效 降低 开发 成 本 。 鉴 于 此 ， 设 计 一 种 适 
用 于 有 效 载荷 高 速 数据 流 的 通用 数据 处 理 
方法 十 分 必要 。 

1 “有 效 载荷 实时 数据 处 理 系统 

有 效 载荷 数 传 数据 简称 传输 帧 ， 其 格 
式 遵循 国际 空间 数据 系统 咨询 委员 会 
( Consultative Committee for Space 
Data Systems, CCSDS ) 的 高 级 在 轨 系 统 
(Advanced Orbit System, AOS ) 标准 只 ， 
示例 结构 如 表 1。 数 据 处 理 过程 繁 杀 ， 主 
要 分 为 两 部 分 : 预 处 理 和 参数 解析 ， 此 外 ， 
通常 须 辅 以 参数 入 库 系 统 保存 数据 ， 以 及 
数据 监视 系统 监视 各 部 分 的 状态 。 系 统 结 
构 如 图 1 所 示 。 


的 正确 性 和 实时 性 要 求 较 低 口 。 
传输 帧 
(实时 数 传 数据 ) 
了 数据 处 理 系统 
预 处 理 模块 一 一 数据 帧 数 结果 一 > 参数 入 库 系统 
| 状态 信息 
状态 信息 > ”数据 监视 系统 < 状态 信息 


1 实时 数据 处 理 系 统 结构 图 


预 处 理 模块 对 传输 帧 的 数据 域 进行 分 
包 和 组 装 处 理 , 形成 表 2 中 的 数据 帧 结构 ， 
处 理 较 快 ， 一 般 不 存在 速率 瓶颈 问题 。 参 
数 解析 模块 对 数据 帧 中 的 每 一 参数 进行 处 
理 ， 数 据 帧 的 应 用 数据 段 长 度 不 固定 ， 工 
程 应 用 中 ， 应 用 数据 的 形式 有 几 十 种 ， 每 
一 种 包含 几 十 至 几 百 个 参数 ， 参 数 越 多 ， 
参数 值 转换 越 复杂 ， 解 析 过 程 越 耗 时 。 


随 着 空间 科学 任务 的 发 展 ， 有 效 载荷 
数据 量 显著 增多 ， 对 数据 处 理 吞 吐 率 的 要 
求 大 幅 提升 。 由 于 参数 解析 模块 的 处 理 过 
程 复杂 且 耗 时 ， 和 常规 的 逐 帧 处 理 方法 在 处 
理 有 效 载荷 高 速 数据 流 时 会 产生 严重 的 数 
据 堆积 ， 降 低 处 理 的 实时 性 和 正确 性 ， 

导致 系统 中 断 。 针 对 这 一 问题 ， 设 计 一 
种 面向 有 效 载荷 高 速 数据 流 的 数据 处 理 方 


法 , 该 方法 借鉴 MapReduce 模型 分 而 治之 载荷 高 速 数 据 流 的 实时 数据 处 理 ， 满 足 空 


的 思想 5 9， 设 计 hash 算法 与 归并 排序 算 间 科 学 任务 型 号 对 吞吐 率 、 实 时 性 及 正确 
法 相 结合 的 多 线程 并 行 模式 ， 实 现 对 有 效 性 的 要 求 。 
表 1 传输 帧 结构 
传输 帧 主导 头 传输 帧 数据 域 
编码 校 验 
同步 码 主 信道 虚拟 信道 虐 拟 信道 传输 帧 计 
言 令 域 B_PDU 位 流 数据 符号 填充 
标识 符 标识 符 数 
4B 128B 
表 2 数据 帧 结构 
传输 标签 数据 段 


同步 头 卫星 标识 消息 类 型 消息 长 度 系统 时 间 信 源 信和 宿 


计数 ”保留 。 应 用 数据 


4B 4B 4B 2B 6B 4B 4B 4B 4B 变 长 
2 ”关键 技术 字 。 

设计 面向 有 效 载荷 高 速 数据 流 的 处 理 为 实现 真正 意义 上 的 多 线程 并 行 ， 用 
方法 ， 主 要 从 两 方面 提升 参数 解析 模块 的 。 。 于 处 理 有 效 载荷 高 速 数 据 流 的 hash 桶 的 
性 能 ， 一 是 采用 高 效 的 处 理 模式 ， 在 不 影 ”数目 要 小 于 2 倍 的 计算 机 处 理 器 核 数 。 处 
响 数 据 正 确 性 的 前 提 下 ， 将 逐 帧 处 理 改 为 。” 理 空间 数据 的 计算 机 配置 较 高 ， 一 般配 备 
并 行 处 理 ， 二 是 采用 通用 的 解析 算法 ， 使 。 。” 有 32 及 以 上 数目 的 核 数 ， 因 此 ，hash 栖 
其 能 够 面向 多 任务 ， 具 有 良好 的 通用 性 。 的 数目 一 般 可 选取 为 十 几 个 至 几 十 个 ， 采 
2 1 并 行 处 理 模式 用 直接 取 余 法 即 简单 易 操作 ， 又 能 使 得 数 


MapReduce 批 处 理 方法 对 于 可 划分 的 
大 规模 数据 处 理 任务 ， 能 够 提供 充分 的 并 
行 计算 语义 ， 针 对 有 效 载荷 高 速 数 据 流 ， 
借鉴 其 分 而 治之 的 思想 ， 采 用 多 线程 并 行 
的 模式 进行 处 理 。 数 据 处 理 架 构 如 图 2 所 
示 ， 可 表述 为 三 步 : 


据 均 匀 分 布 ， 是 一 种 较 优 的 选择 。 

(2) ”数据 帧 处 理 
即 实现 数据 帧 的 参数 解析 。 为 每 个 存 
放 数 据 帧 的 hash 桶 分 配 一 个 固定 的 处 理 
线程 和 结果 缓存 区 ， 处 理 线 程 按 FIFO 
(First Input First Output) 的 方式 从 桶 内 获 


取 数 据 帧 ， 按 数据 帧 格式 规范 将 其 解析 为 
相应 参数 ， 最 后 将 参数 的 内 容 存储 到 对 应 
的 结果 缓冲 区 中 。 


(1) Hash 分 流 
通过 识别 同步 码 ， 将 数据 流 切 分 为 数 
据 帧 ， 以 独立 数据 帧 为 对 象 ， 采 用 Hash 
方法 进行 等 价 映射 ， 并 分 配 到 相应 的 hash 
桶 中 。 常 见 的 hash 函数 构造 方法 00 有 : 


(3) 归并 


将 各 个 结果 缓存 区 中 的 参数 结果 按时 
间 先 后 顺序 进行 归并 ， 并 将 结果 发 送 给 实 


。 ”直接 取 余 法 : Hash(x)=xmodp， 现 参数 入 库 的 软件 。 鉴 于 该 方法 设计 的 特 


P<m, m 为 hash 桶 的 数目 (或 hash 


殊 性 ， 其 排序 过 程 可 以 不 通过 比较 时 间 字 


段 实现 ， 而 是 从 结果 缓存 区 1~n 中 顺 次 取 


链表 的 长 度 )。 
乘 余 取 整 法 : 


Hash(x)=|[m(Oxx%1) (0<0<1) 存 取 。 


， 其 中 0Oxx%1 表示 0xXx 的 小 数 部 


一 个 参数 帧 ， 即 为 按时 间 先 后 顺序 。 每 个 
结果 缓存 区 同样 采取 FIFO 的 队列 式 方式 


图 2 中 数据 接收 缓存 、 数 据 帧 缓存 区 


以 及 处 理 结果 缓存 区 均 设 计 为 环形 队列 的 


分 。 


结构 ， 可 以 使 
。 平方 取 中 法 ， 取 平 方 后 的 中 间 几 位 数 构 ， 可 以 使 


固定 大 小 的 内 存 空间 反复 使 


用 ， 不 需要 进行 动态 的 内 存 释 放 和 分 配 。 


J | 
数据 帧 缓存 区 1 数据 帧 缓存 区 2 数据 帧 缓存 区 n 
数据 帧 (i+1)*n 数据 帧 ((i+1)*n+1) 数据 帧 ((i+2)*n-1) 
数据 帧 +n 数据 帧 i*n+1) 数据 帧 ((i+1)*n-1) 
(人 处 理 进程 1“ ) (处理 进程 “) “(处 理 进程 n 。 ) 
处 理 结果 缓存 区 1 处 理 结果 缓存 区 2 2 处 理 结果 缓存 区 n 
结果 数据 (i-1)*n) 结果 数据 (i-1)*n+1) 结果 数据 (i*n-1) 
结果 数据 0 结果 数据 1 于 结果 数据 n 
J 业 J 
昌吉 六 
ES: 
尼 
zg 


2 有 效 载荷 高 速 数据 流 处 理 架 构 
2.2 数据 帧 处 理 
处 理 数据 帧 需要 数据 帧 及 其 参数 的 结 
构 信 息 ， 同 时 ， 解 析 的 结果 还 需要 满足 用 
户 对 数据 显示 的 需求 。 以 往 ， 数 据 帧 处 理 
过 程 需要 针对 不 同 任务 的 数据 特点 建立 相 
应 的 数据 库 、 开 发 特定 的 参数 解析 软件 ， 
工作 量 大 ， 周 期 长 ， 特 别 是 不 能 满足 未 来 
多 卫星 多 任务 的 航天 需求 。 引 入 一 种 标准 
化 的 数据 信息 描述 模型 ， 可 以 使 得 参数 解 
析 模 块 能 够 不 局 限于 单一 航天 任务 ， 实 现 
通用 化 。 
CCSDS 推出 的 XTCE(XML Telemetry 
人 Command Exchange) 是 一 种 描述 数据 模 
型 的 国际 化 标准 中 ， 以 XML schema 文 
件 的 形式 给 出 ， 顶 层 根 节点 为 
SpaceSystem， 包 含 6 部 分 : Header 〈 头 文 
件 )、 Description (文件 描述 )、SpaceSystem 
( 子 系统 )、CommandMetaData (遥控 元 


数据 )、TelemetryMetaData 〈 遥 测 元 数据 ) 
和 ServiceSet〈 服 务 集合 )。 参 数 解析 模块 
所 需 的 结构 信息 主要 来 源 于 
TelemetryMetaData 元 素 ， 其 子 元 素 包 括 
ParameterTypeSet (参数 类 型 集合 )、 
ParameterSet (参数 集合 )、ContainerSet ( 容 
器 集合 ) 等 。 

XTCE 履 盖 范围 广泛 ， 为 避免 几 余 ， 
可 针对 需求 进行 裁剪 。 对 于 参数 解析 模块 ， 
通常 需要 参数 名 、 起 止 位 置 、 类 型 、 转 换 
公式 等 信息 。 系 统 初始 化 时 ， 读 取 XTCE 
文件 ， 解 析 并 保存 数据 模型 ， 以 备 各 数据 
帧 处 理 进 程 使 用 。 数 据 帧 处 理 进 程 的 算法 
流程 如 图 2 所 示 。 初 始 条 件 中 ， 各 变量 所 
表示 的 含义 分 别 为 : 

IsSyn: 是 否 同步 ，MoveBit 所 需 移 
位 数 ; LenofUnPrecess: 未 处 理 的 数据 长 
度 ;”LenofLeft : 上 一 次 处 理 后 剩余 的 数 
据 长 度 ，UnitDataLength : 单位 处 理 长 度 
(数据 帧 长 )。 算 法 核心 思想 在 于 : 设置 两 
个 缓冲 区 ， 缓 冲 区 的 大 小 设置 为 单 次 处 理 
的 最 大 长 度 的 两 倍 ，B1 用 于 处 理 ，B2 用 
于 备份 ， 当 B1 寻找 同步 码 产 生 移 位 时 可 
用 B2 恢复 B1 中 数据 。 新 读 取 数据 
LenofNewData 不 长 于 单 次 处 理 的 最 大 长 
度 。 每 次 读 取 固定 长 度数 据 ， 判 断 是 否 同 
步 ， 同 步 则 解析 ; 不 同步 ， 则 重新 寻找 同 
步 码 ， 从 新 同步 码 位 置 解析 ， 若 仍 未 找到 
同步 码 ， 则 只 保留 该 次 处 理 数据 末尾 的 同 
步 码 长 度 的 数据 ， 以 确保 不 影响 对 下 一 次 
读 取 的 新 数据 的 同步 状态 识别 。 寻 找 同 步 
码 时 采用 按 字 节 比 较 的 方式 ， 大 一 次 比较 
未 找到 ， 则 将 Bl 缓冲 区 右 移 一 位 ， 再 次 
比较 ， 至 多 移 7 次 结束 。 

该 算法 通过 匹配 XTCE 文件 中 的 数据 
模型 进行 参数 解析 ， 不 局 限 单一 结构 ， 具 
有 良好 的 通用 性 。 


-> 


ES 
tp 


初始 条 件 : IsSyn = false; MoveBit = 0; 
LenofUnPrecess = 0;LenofLeft = 0; 
UnitDataLength=0; 


v 
申请 两 个 缓冲 


区 B1，B2。 


读 取 定 长 数据 : 记录 数据 长 度 为 LenofNewData; 
将 新 数据 追加 到 B2 缓 冲 区 中 ; 

记录 LenofUnPrecess = LenofNewData + LenofLeft， 
TotalLengthToProcess (总 长 ) = 


将 B1 缓 冲 区 右 移 Movebit 位 ; 

获取 同步 码 结束 位 置 SynCodePos; 

获取 数据 帧 的 长 度 ， 赋 给 UnitDataLength; 
LenofUnPrecess = TotalLengthToProcess - 
SynCodePos; 


LenofUnPrecess >=UnitDataLen+ 
SysCodeLen (| 同步 码 长 度 盖 
目 . 


是 
一 一 该 巾 后 的 数据 为 == 
SS 


LengthOfUnProcess 。 已 vy 
LenofUnPrecess -= UnitDataLen ; 
YY 合法 帧 计数 +1; 
LenofUnPrecess >=UnitDataLen+ 匹配 数据 模型 解析 : 
”不 一 SysCodeLen (同步 码 长 度 ) 一 一 获取 数据 帧 标识 《〈 读 取 指定 位 置 的 bt 位 ) ， | 香 再 
查找 该 标识 对 应 的 参数 结构 ; 
S 依次 截取 参数 并 进行 物理 量 转换 ; 
a 将 结果 存 入 对 应 结果 缓冲 区 ; 
vy LengthOfUnProcess = TotalLengthToProcess - 
IsSys=True 一 SynCodePos -1; 非法 帧 计数 +1; 
人 记录 失 步 状 态 : IsSyn = false; 
将 8B2 虱 环 区 中 的 数据 居 复 至 Bi vy 
从 B1 中 寻找 同步 头 ， 记 录 移 位 数 Movebit( 若 一 否 IsSys=True 一 
否 未 找到 同步 头 ，Movebit=-1) 
是 
a ~ Movebit >0 = MoveBlsoge 
是 | LenofUnProcess<TotalLenFoProcess 
下 


天 


记录 同步 状态 IsSyn =True 


丢弃 数据 ; | 
记录 LengthOfUnProcess = SysCodeLen 


将 B2 中 未 处 理 数据 覆盖 B2 中 原 有 数据 ; 
记录 LenofLeft = LengthOfUnProcess 


ER 
= 在 为 和 半 = 一 
四 _ 
仿生 ) 
Ts 


本 
LenofUnProcess+=1; 


2 数据 帧 处 理 进程 流程 图 


系统 实现 与 验证 

采用 Visual Studio 2012 工具 开发 了 面 
向 有 效 载荷 高 速 数据 流 的 数据 处 理 系统 ， 
将 该 系统 部 署 在 linux 系统 的 服务 器 上 ,应 
菜 型 号 卫星 的 数 传 数 据 对 系统 进行 测 
试 ， 该 卫星 要 求实 时 处 理 吞 吐 率 不 小 于 
15042ps 。 搭建 系统 测试 验证 平台 如 图 3 
所 示 ， 在 模拟 发 送 计 算 机 上 安装 模拟 发 送 
程序 ， 通 过 网 络 按照 指定 码 率 发 送 数 传 数 
据 到 数据 处 理 服务 器 ， 数 据 处 理 服务 器 上 
部 署 数据 处 理 系 统 ， 系 统 中 各 模块 间 〈 包 


也 


y 


居 库 ) 使 用 万 兆 网 互联 ， 系 统 状态 信 
过 千 兆 网 发 送 给 数据 处 理 监 视 系统 。 
模拟 发 送 计算 机 


类 
Ea 


状态 监视 计算 机 


干 光 网 
rn 
交换 机 数据 库 


3 系统 测试 验证 平台 


= 


测试 表明 ， 面 向 有 效 载荷 高 速 数据 流 
的 处 理 方法 性 能 优 于 常规 方法 ， 


其 测试 比 


较 如 表 3 所 示 ， 需 要 说 明 的 是 ， 常 规 方法 


是 事后 处 理 方式 , 当 采 月 
码 率 高 于 12.1Mbps 会 导致 接收 缓存 洪 ! 


实时 处 理 方式 时 ， 


Lb 


进而 导致 处 理 中 断 。 
此 外 ， 通 用 的 参数 解析 算法 ， 使 得 参 
数 解析 模块 能 够 面向 多 任务 ， 当 数据 结构 


发 生变 化 时 ， 只 需 更 新 XTCE 文件 ， 无 需 
更 改 程序 ， 降 低 开 发 成 本 。 
表 3 两 种 方法 测试 结果 比较 


比较 常规 方法 高 速 数据 流 处 理 方法 
处 理 模式 单线 程 逐 帧 处 理 模式 多 线程 并 行 处 理 模式 
服务 器 配置 4x16 核 ，64G 内 存 4x16 核 ，64G 内 存 
模拟 发 送 速率 / 145Mbps、155Mbps 
最 大 吞吐 率 12.1Mbps >155Mbps (16 个 线程 ) 
处 理 方式 事后 实时 
合法 帧 计数 26624 26624 
4 结束 语 stream over large sacle data. Chinese Journal 
本 文 设计 并 实现 了 面向 有 效 载荷 高 束 We 
数据 流 的 数据 处 理 系统 ， 解 决 了 常规 方法 en 


无 法 满足 较 高 数据 处 理 否 吐 率 要 求 的 问 


题 ， 
的 通 
现 目 
求 ， 


并 能 够 面向 多 型 号 多 任务 ， 具 有 良好 
性 。 该 系统 经 过 测试 验证 ， 可 以 实 
前 对 有 效 载荷 高 速 数据 流 的 处 理 需 
为 工程 应 用 提供 参考 。 
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